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摘 要 : [目的 /意义 ] 在 大 数据 浪潮 和 "新 文科 "背景 下 ,中 国 图 情 档 学 科 的 人 才 培 养 范式 至 需 改 革 。 与 此 同时 ,大 数据 相 
关 专 业 的 建设 方兴未艾 ,对 于 图 情 档 学 科 的 人 才 培 养 新 范式 建设 具有 借鉴 意义 。 [方法 “过程 ] 采 用 一 种 时 序 主题 
网 络 模型 及 计算 方法 ;通过 搜集 处 理 、 统 计 、 分 析 259 所 高 等 院 校 的 大 数据 专业 培养 方案 文本 ,在 时 间 维 度 上 进 
行 主题 挖掘 ,总 结 归纳 数据 科学 课程 的 层次 ;分 析 图 情 档 学 科 主 干 知识 与 大 数据 专业 的 联系 ,并 给 出 适合 图 情 档 
学 科 的 数据 科学 课程 建议 。| 结果 /结论 ] 结果 表明 ,所 采用 的 时 序 主题 网 络 模型 方法 能 够 较 好 地 契合 大 数据 专业 
的 人 才 培养 范式 发 展 分 析 , 可 以 成 为 研究 学 科 主题 的 一 种 方法 。 此 外 ,还 给 出 面向 图 情 档 学 科 的 数据 科学 类 课程 


T ”建议 ,可 供 图 情 档 学 科 的 人 才 培 养 参 考 。 


Xy. 人 才 培 养 数据 科学 ”新 文科 ”时序 主题 网 络 模型 
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CQ -新 文科" 建设 是 提升 中 国 国家 软 实力 \ 促 进 文化 
名 有 的 重要 部 分 ,也 是 高 质量 教育 体系 改革 的 重点 。 
卷 六 育才 是 建设 “新 文科 ”的 关键 点 ,要 做 到 遵循 规 
很 各 同 育 人 .模式 多 元 ,培养 出 适应 新 时 代 要 求 的 应 
用 一 复合 型 人 才 。 

轩 男 书 情 报 与 档案 管理 (以 下 简称 “图 情 档 ” ) 学 科 
因为 具有 天 然 的 文理 交叉 性 ,在 “新 文科 ”的 背景 下 ， 
二 培养 模式 必然 迎 来 重大 的 革新 。 在 数据 科学 刚刚 
兴起 时 , 叶 座 和 马 费 成 指出 数据 科学 与 信息 科学 在 理 
论 罗 辑 和 技术 方法 上 一 脉 相 承 串 。“ 数 智 赋 能 "已 然 
成 为 图 情 档 学 科 的 新 发 展 趋势 , 孙 建 军 等 中 认为 数据 
管理 与 数据 分 析 技 术 为 图 情 档 学 科 的 发 展 提供 了 新 的 
可 能 , 赵 星 等 ”也 基于 数据 智能 和 知识 发 现 提 出 了 图 
情 档 学 科 的 拓展 方向 。 

本 研究 从 图 情 档 学 科 发 展 难 点 出 发 ,借鉴 大 数据 
专业 人 才 培 养 模式 的 建设 经 验 。 为 分 析出 大 数据 专业 
人 才 培 养 发 展 范式 ,本 研究 创新 性 地 利用 时 序 主题 网 
络 模型 ,对 259 所 开设 大 数据 专业 院 校 的 培养 方案 文 
本 进行 挖掘 ,并 总 结 出 其 课程 的 三 大 层次 。 为 助力 图 
情 档 学 科 人 才 培 养 模式 的 创新 建设 ,本 研究 结合 叶 


鹰 ” 总 结 的 图 情 学 科 主 干 知识 ,探索 图 情 档 的 数据 科 
学 类 课程 建设 方案 ,为 图 情 档 学 科 人 才 培 养 模式 的 创 
新 发 展 提供 依据 。 


2 ”困境 与 思 


2.1 现实 问题 

从 大 多 数 院 校 图 情 档 专业 所 在 院 系 设立 的 本 科 专 
业 言 息 管理 与 信息 系统 专业 的 发 展现 状 来 看 ， 
2020 年 2021 年 分 别 有 13 所 、16 所 院 校 撤销 了 该 专 
业 , 在 普通 高 校 新 增 撤销 本 科 专 业 名 单 中 分 别 排 在 第 
3 名 .第 2 名 。 相 比 之 下 ,大 数据 专业 的 开设 情况 却 如 
KUIZE , 近 两 年 申请 开设 数据 科学 与 大 数据 技术 专业 、 
大 数据 管理 与 应 用 专业 的 学 校 均 超过 50 所。 图 情 档 
相关 专业 最 悲观 的 预测 是 在 10 年 内 "消亡 被 合并 被 
替代 改名 被 边缘 化 "” 。 由 此 可 见 , 当 前 图 情 档 学 科 
的 人 才 培 养 模式 吸 需 改革 ,要 顺应 “新 文科 ”的 时 代 洪 
流 推 进发 展 。 
2.2 ”学界 思考 

自 “ 新 文科 ”提出 以 来 ,很 多 学 者 都 对 图 情 档 学 科 
的 未 来 发 展 提出 了 新 的 思考 ,如 初 景 利 "提出 图 情 档 
学 科 要 发 展 成 “人 硬 学 科 ” ,要 做 到 坚持 内 核 的 情况 下 ， 
强化 技术 与 方法 的 引入 。 马 费 成 等 ”提出 要 抓 住 新 文 


«du 


* 本 文系 国家 自然 科学 基金 面 上 项 目 “ 跨 维度 引文 分 析 方 法 研究 ”( 项 目 编号 :71874056) 研究 成 果 之 一 。 
作者 简介 : 杨 杰 ,本 科 生 ,E-mail:alexjieyang@outlook. com; E Æ ,经 济 与 管理 学 部 副 主任 ,学 术 评价 与 促进 研究 中 心 主 任 , 教 授 。 
收 稿 日 期 :2021 -06 -01 修 回 日 期 :2021 -09 -16 本 文 起 止 页 码 :109 -116 本 文责 任 编辑 : 王 传 清 


109 


AELE xt 


第 66 卷 第 2 期 2022 «£ 1 H 


ChinaXiv 合 作 期 刊 


科 建 设 契 机 ,重视 交叉 融合 ,同时 要 坚守 人 文 传统 。 张 
九 珍 ”提出 图 情 档 在 “新 文科 ”背景 下 的 学 科 交 叉 融 
合 应 当做 到 “以 我 为 主 ,为 我 所 用 ”。 关 于 坚持 学 科 内 
核 方 面 的 探讨 , 叶 认 “对 图 书 情报 学 的 主干 知识 和 研 
究 方 法 进行 了 总 结 ,为 图 情 档 学 科 的 发 展 明确 坚守 的 
依据 。 周 文 杰 ” 提 到 ,图 情 档 新 文科 建设 需要 坚守 的 
“ 旧 ” 内 核 包 括 :基于 科学 数据 建设 数据 科学 、 作 为 基 
础 设施 支持 数字 人 文 、 立 足 知识 组 织 “ 编制 ”数字 记 
忆 、 坚 守 公 共 文 化 服务 的 人 文 情怀 .开掘 参考 咨询 的 循 
证 决策 功能 。 

2.3 创新 发 展 


“新 文科 ”的 新 是 创新 的 新 ,“ 新 文科 "专业 人 才 培 
养 模式 的 建设 ,可 以 借鉴 和 吸取 “新 工科 ”专业 的 新 方 
法 = 新 技术 。 图 情 档 学 科 人 才 培 养 新 模式 的 建设 ,可 以 
结 全 大 数据 专业 ,探索 出 新 的 发 展 方向 。 

LO 从 大 数据 专业 汲取 经 验 的 思路 并 非 本 研究 原创 ， 
所 当 等 中 研究 了 情报 学 取向 的 数据 科学 与 大 数据 专 


理 司 应 用 专业 的 培养 方案 文本 。 黎 海 波 等 上 研究 了 
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Jets DU RES RE T] BTE UE. DARAUS 
通过 设计 民族 志 未 来 访谈 ,判断 出 数据 科学 与 图 情 学 
科 领 域 将 来 最 可 能 是 并 集 的 关系 。 

本 研究 将 从 大 数据 专业 的 人 才 培 养 模式 中 进行 探 
索 ,为 图 情 档 学 科 人 才 培 养 模式 提供 新 思路 。 


3 ”大 数据 专业 的 主题 分 析 


3.1 大 数据 专业 的 基本 情况 

内 大 数据 专业 最 早 开 设 于 2016 年 ,具体 开设 情 
况 如 图 1 所 示 , 在 2016 年 ,北京 大 学 、 对 外 经 济 贸易 大 
学 .中 南大 学 首先 开设 了 数据 科学 与 大 数据 技术 专业 ， 
此 后 在 2017 -2021 年 ,分 别 有 32 所 .248 所 、203 所 、 
143 所 .62 所 院 校 开设 了 该 专业 。 该 专业 授予 的 学 位 
分 为 工学 学 位 和 理学 学 位 两 种 ,厦门 大 学 .中 国人 民 大 
学 、 上 海 财 经 大 学 等 高 校 同 时 在 理学 和 工学 对 应 的 学 
院 开 设 该 专业 。 截 至 2021 年 初 ,开设 该 专业 的 院 校 数 
量 为 674 所 ,其 中 , 原 “985 工程 " 院 校 有 29 Br, i "211 
工程 ” 院 校 有 73 所 。 大 数据 管理 与 应 用 专业 诞生 于 
2017 年 ,2018 年 至 2021 年 的 开设 院 校 数量 分 别 为 5 
所 .25 所 .52 所 .68 所 ,截至 2021 年 ,共有 140 所 高 校 
开设 了 该 专业 ,其 中 , 原 "985 工程 ” 院 校 有 5 所 , 原 
“211 工程 ” 院 校 有 25 所 ,该 专业 授予 的 学 位 均 为 管理 


学 学 位 。 


5i n n 
2016 2017 2018 


n n 
2019 2020 2021 
年 份 


一 e 一 数据 科学 与 大 数据 技术 专业 =e 大 数据 管理 与 应 用 专业 


1 大 数据 专业 申请 开设 院 校 数量 与 趋势 


本 研究 通过 邮件 咨询 、 院 校 官网 等 渠道 ,对 以 上 大 
数据 专业 开设 院 校 的 培养 方案 进行 搜集 。 其 中 部 分 院 
校 的 数据 难以 获取 ,最 终 搜集 得 到 了 86 所 大 数据 管理 
与 应 用 专业 开设 院 校 ,173 所 数据 科学 与 大 数据 技术 
专业 开设 院 校 , 共 259 所 院 校 的 大 数据 专业 培养 方案 
和 核心 课程 。 涵 盖 一 流 大 学 建设 高 校 ( 如 北京 大 学 )、 


一 流 学 科 建设 高 校 ( 如 华中 师范 大 学 ) .其 他 省 部 共 建 
高 校 ( 如 广东 海洋 大 学 ) .省 属 高 校 ( 如 聊城 大 学 ) 、 独 
立 院 校 ( 如 集美 大 学 诚 谢 学 院 ) 等 多 个 层次 的 高 校 。 
3.2 大 数据 专业 人 才 培 养 模式 的 主题 关系 

为 分 析 大 数据 专业 培养 模式 的 核心 主题 及 整体 架 
构 , 本 研究 基于 共 现 技术 研究 大 数据 专业 培养 模式 各 
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个 主题 的 之 间 的 相互 关系 ,将 培养 方案 文本 进行 分 词 、 
去 除 停 用 词 .主题 标 引 等 预 处 理 后 ,对 核心 主题 进行 主 
题 关 系 挖掘 ,得 到 大 数据 专业 人 才 培 养 模式 主题 关系 
弦 图 , 见 图 2。 

图 2 分 别 呈 现 了 数据 科学 与 大 数据 技术 专业 大 
数据 管理 与 应 用 专业 的 人 才 培 养 模式 主题 , 弦 的 不 同 
弧 线 代表 该 专业 培养 方案 中 的 重要 主题 , 弧 线 长 度 代 
表 主 题 的 重要 程度 , 弦 网 络 的 密集 程度 代表 不 同 主题 
之 间 的 关联 紧密 性 。 由 图 2 分 析 可 知 ,数据 科学 与 大 


创新 能 力 
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3:&- 大 数据 专业 人 才 培 养 模式 的 主题 演变 

S. C. Deerwester 45 在 1990 年 提出 了 一 种 非 概 
率 葬 主题 模型 潜在 语义 索引 (Latent Semantic Indexing, 
LSEY, MJA T. Hofmann"? 实现 了 基于 概率 的 主题 模 
型 6 化 后 基于 概率 的 主题 模型 逐渐 兴起 。 传 统 的 主题 
模型 不 包含 时 间 维 度 , 本 研究 借鉴 庚 君 华 等 ""、A. 
Bruns" M. J. Westgate 等 ("| Z. F. Zhang 45?! Y. 
Zheng 等 2 研究 的 时 序 主题 模型 ,利用 切片 方法 引入 
时 间 维 度 。 

为 了 从 时 间 维度 上 深入 剖析 大 数据 专业 的 范式 发 
展 脉络 ,本 研究 利用 Python-3. 8. 5 .Cephi-0. 9. 2, VOS- 
viewer-1.6. 16 软件 ,基于 ForceAtlas2 25 3:77 计算 布 
局 ,其 中 具体 计算 方法 如 下 : 

(1) 根 据 不 同时 间 段 将 文本 数据 集 进行 切片 , 
分 为 了 个 切片 。 


^R 


m, - Xi m, 公式 (1) 

(2) 对 每 一 个 切片 中 的 文本 数据 进行 去 停 用 词 、 

词 频 统 计 . 词 共 现 甜 阵 .网 络 分 布 ,并 基于 概率 计算 主 
题 分 布 。 


数据 技术 专业 人 才 培 养 的 核心 点 为 数据 分 析 , 专 业 核 
心 技 术 是 计算 机 技术 和 统计 学 。 大 数据 管理 与 应 用 专 
业 人 才 培 养 的 核心 点 是 数据 管理 ,专业 核心 技术 是 统 
计 学 ,管理 科学 和 计算 机 科学 。 前 者 重视 培养 学 生 的 
抽象 思维 能 力 ,数学 形式 化 思维 能 力 数据 科学 理论 知 
识 ,数据 科学 基础 能 力 等 。 后 者 重点 培养 学 生 的 数据 
采集 ,数据 处 理 和 分 析 ,数据 可 视 化 能 力 。 在 大 数据 专 
业 的 培养 模式 下 ,学 生 能 够 采用 数据 科学 方法 对 商业 、 
管理 中 的 复杂 问题 或 复杂 数据 工程 问题 进行 研究 。 
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图 2 大 数据 专业 人 才 培 养 模式 主题 关系 


plwl,=,wm) =i =]; P(wi | wl, ,wi -1) 
公式 (2) 
其 中 ,p 表示 词 向 量 编码 中 词组 合 的 出 现 概率 ,将 
词 共 现 矩阵 的 行 作为 词 向 量 , 并 降 维 处 理 为 节点 数据 
和 边 数 据 , 以 方便 后 续 可 视 化 。 
(3) 对 全 部 网 络 分 布 进行 组 合 . 著 加 ,得 到 时 序 主 
题 网 络 。 


TRAN, (n) 21X(n) -X(n Dac 


公式 (3 ) 
其 中 ,7TR4N,(z) 表 示 某 切片 数据 集 的 共 现 网 络 在 
时 序 网 络 中 的 某 一 维度 的 位 置 俩 移 量 , 此 偶 移 量 由 相 
邻 两 个 切片 数据 集 的 共 现 网 络 的 范围 的 差 值 1XCz) - 
X(n 一 1)1 和 该 切片 的 位 次 n 决定 。 
对 大 数据 专业 培养 方案 的 文本 数据 进行 如 下 分 
析 : 中 根据 院 校 开设 大 数据 专业 的 年 份 对 文本 数据 进 
行 切 片 。 包 基于 哈工大 停 用 词 表 和 自制 词 表 去 除 停 用 
词 。 名 利用 基于 python 的 pandas 包 计算 词 频 , 利 用 词 
向 量 计算 共 现 矩阵 。@ 风 利用 VOSviewer 软件 计算 每 个 
切片 的 文本 数据 并 进行 网 络 分 布 计算 。@ 利 用 Cephi 
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对 全 部 网 络 分 布 进 行 布局 组 合 , 得 到 大 数据 专业 的 时 
序 主题 网 络 , 见 图 3。 

由 图 3 分 析 可 知 , 大 数据 专业 刚刚 开设 时 ,人 才 培 
养 模 式 上 倾向 于 数据 系统 、 工 程 项 目 等 技术 性 方向 。 
而 随 着 更 多 院 校 开设 了 大 数据 专业 ,该 专业 的 人 才 培 
养 模 式 呈 现 出 多 元 化 、 宽 口径 ,开放 式 的 特征 。 具 体 而 
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言 ,培养 模式 文本 中 社会 科学 .统计 学 等 主题 的 节点 密 
度 增 加 ,说 明 在 人 才 培 养 方面 ,大 数据 专业 逐渐 将 数据 
科学 与 管理 学 、 医 学 、 经 济 学 等 专业 深度 融合 ,在 电子 
商务 .信息 管理 金融 科技 .智慧 医疗 等 领域 开辟 新 的 
培养 模式 。 人 才 培 养 范式 逐渐 从 基础 理论 和 基本 应 用 
拓展 到 多 元 宽泛 的 应 用 方向 。 


E 大 数据 管理 与 应 


3 大 数据 专业 人 才 培 养 时 序 主题 网 络 


112 


ChinaXiv 合 作 期 刊 


HA, RF. 大 数据 专业 培养 内 容 的 主题 分 析 及 对 图 情 档 学 科 的 启示 [可 .图 书 情 报 工作 ,2022 ,66(2) :109 - 116. 


3.4 ”大 数据 专业 课程 的 三 大 层次 

由 上 文 分 析 可 知 ,大 数据 专业 重视 培养 学 生 的 基 
础 数理 能 力 .数据 科学 思维 能 力 和 数据 科学 实践 能 
近年 逐渐 开始 融合 社会 科学 等 其 他 学 科 的 知识 ,为 学 
生 提 供 更 加 多 元 化 的 发 展 路 径 , 相 关 课 程 也 从 基础 理 
论 知识 .大 数据 基础 应 用 知识 演变 为 更 加 广泛 的 知识 。 

陈 沫 等 "在 研究 大 数据 专业 课程 体系 时 ,将 其 划 
分 为 基础 层 .方法 层 ,应 用 层 共 三 大 层次 。 本 研究 借鉴 
其 思路 ,并 基于 前 两 节 的 主题 分 析 , 将 大 数据 专业 的 核 
心 课程 划分 为 3 个 层次 ,分 别 是 基础 理论 与 方法 层 、 大 
数据 理论 与 方法 层 、 综 合 方法 及 应 用 层 , 见 表 1。 

基础 理论 与 方法 层 的 课程 注重 培养 学 生 的 基础 数 
理 思维 和 基本 数据 科学 素养 ,包括 统计 学 类 的 课程 和 
算法 程序 类 的 课程 ,例如 数据 结构 与 算法 .Python 程序 
设 评 与 应 用 等 课程 。 
E DU. 


培养 学 生 数据 科学 及 大 数据 的 核心 素养 ,包括 数据 存 
储 与 管理 数据 采集 与 加 工 数据 分 析 与 挖 气 、 大 数据 
技术 4 个 方面 的 内 容 。 甚 中 ,数据 存储 与 管理 包含 数 
JEE .数据 仓库 .Hadoop 大 数据 存储 等 课程 ;数据 采集 
Ej E818 TG 78. .数据 搜集 、 信 息 检 索 等 课程 ;数据 分 
析 与 挖 据 包 含 数 据 建 模 、 统 计 分 析 、 机 器 学 习 、 数 据 可 
视 化 等 课程 ;大 数据 技术 包含 基本 的 大 数据 分 析 技 术 
课程 ,如 大 数据 分 布 式 算 法 等 。 

综合 方法 及 应 用 层 为 学 生 提 供 了 多 种 方向 的 选择 
(不 同 院 校 根据 自身 情况 开设 ) ,使 学 生 运用 数据 科学 
的 基本 知识 ,在 商业 大 数据 、 医 学 大 数据 等 方向 进行 实 
践 ,能 有 效 激发 学 生 的 兴趣 ,并 提升 学 生 的 实践 能 
例如 复旦 大 学 的 大 数据 专业 培养 方案 中 ,为 学 生 提供 
了 “ 理 医 工学 大 数据 分 析 模 块 "“ 社 会 科学 大 数据 分 析 
模块 "“ 类 脑 计算 方向 专业 进 阶 模块 "等 多 个 多 元 发 展 
路 径 的 课程 选择 。 


R1 大 数据 专业 课程 层次 


O gk 


课程 类 别 典型 课程 

HE SA 统计 学 原理 R 语言 及 统计 分 析 、 应 用 随机 过 程 .时 间 序 列 分 析 、 非 参数 统计 统计 分 析 与 决策 
C 算法 与 程序 C/C + + 程序 设计 Python 程序 设计 、 操 作 系统 原理 及 应 用 Linux ,数据 结构 与 算法 
ROEIDE SIKE 。 数据 存储 与 管理 Hadoop 大 数据 存储 Hive 数据 仓库 .MySqL 数据 库 .NoSQL 数据 库 ,分 布 式 数据 库 原 理 与 应 用 
N 数据 采集 与 加 工 网 络 怜 虫 与 数据 收集 ,数据 采集 加 工 与 ETL 技术 、 信 息 检索 基础 智能 信息 检索 ,海量 数据 预 处 理 实战 
m 数据 分 析 与 挖掘 数据 建 模 与 统计 分 析 ,数据 挖掘 原理 与 算法 ` 人 工 智能 、 数 据 可 视 化 技术 、 机 器 学 习 自然 语言 处 理 

is 大 数据 技术 大 数据 分 布 式 算法 .用户 分 析 与 推荐 算法 ` 云 计算 ,大 数据 语义 网 络 
= 弘 合 方法 及 应 用 层 商业 大 数据 金融 大 数据 分 析 、 营 销 数据 科学 、 商 务 智能 方法 与 应 用 、 商 务 智能 与 决策 分 析 
>< 医学 大 数据 医疗 大 数据 分 析 与 应 用 、 精 准 医 疗 统计 与 智慧 决策 

E 大 数据 安全 信息 安全 、 大 数据 安全 与 隐私 保护 .密码 学 原理 与 实践 软件 安全 
aa 其 他 遥感 大 数据 分 析 、 旅 游 数 据 挖掘 与 分 析 ,视觉 与 数据 计算 、 林 业 大 数据 分 析 与 决策 


a 图 情 档 学 科 人 才 培 养 的 创新 发 展 


4.1 图 情 档 主干 知识 与 大 数据 专业 的 联系 

在 汲取 大 数据 专业 建设 经 验 ,建设 图 情 档 学 科 人 
才 培 养 新 模式 的 过 程 中 ,要 掌握 图 情 档 学 科 人 才 培 养 
模式 的 核心 立足 点 。 

S. R. Ranganathanc21 很 早 就 确立 了 图 书馆 学 的 立 
学 原则 ,主要 集中 在 图 书 服务 方面 。 随 着 时 代 的 发 展 ， 
图 情 档 学 科 的 核心 主题 有 了 一 定 变化 。 叶 座 “ 经 由 核 
心 学 术 凝 聚 表 达 了 图 情 档 学 科 的 主干 知识 ,层次 上 包 
括 概念 级 、 理 论 级 体系 级 。 首 先 将 核心 学 术 分 为 信息 
组 织 、 信 息 检 索 和 信息 分 析 , 再 分 别 由 3 个 层次 细 化 。 
信息 组 织 在 概念 级 细 化 为 分 类 、 标 引 , 在 理论 级 细 化 为 
分 类 法 主题 法 编目 法 索引 法 ,在 体系 级 细 化 为 文献 
体系 、 知 识 体系 。 信 息 检索 在 概念 级 细 化 为 查 准 、 查 
全 ,在 理论 级 细 化 为 布尔 检索 等 搜索 算法 ,在 体系 级 细 


化 为 搜索 引擎 等 检索 系统 。 信 息 分 析 在 概念 级 细 化 为 
广 快 ,精准 ,在 理论 级 细 化 为 引文 分 析 内 容 分 析 ,在 
体系 级 细 化 为 量化 分 析 、 质 性 分 析 。 基 于 此 ,总 结 出 图 
情 档 学 科 人 才 培 养 体系 的 核心 主题 ,主要 包括 信息 组 
织 、 信 息 检索 信息 分 析 等 方面 。 

在 259 所 开设 大 数据 专业 院 校 的 人 才 培 养 方案 文 
本 中 分 别 检索 ,统计 上 述 核 心 词 ,以 核心 词 的 频次 %j 的 
总 和 作为 图 情 档 学 科 的 核心 概念 出 现 频 次 总 和 ,本 研 
究 用 其 来 表示 图 情 档 学 科 和 大 数据 专业 的 联系 紧密 
程度 。 


R(n) = 7%, 公式 (4) 

分 别 对 每 个 层次 下 的 所 有 核心 词 的 频次 x, 进行 

求 和 ,基于 大 数据 专业 课程 层次 ,得 到 图 情 档 主干 知识 
及 与 大 数据 专业 的 联系 , 见 表 2。 

显然 ,数据 科学 已 经 融入 了 信息 组 织 .信息 检索 和 

言 息 分 析 的 各 个 层次 ,其 中 , “分类”“ 搜 索 算 法 ”“ 量 化 


113 


AELE EZ 


第 66 卷 第 2 期 202 #1 


ChinaXiv 合 作 期 刊 


分 析 ” 等 领域 中 ,图 情 档 学 科 的 核心 概念 出 现 频次 较 
高 。 由 此 可 见 , “基础 理论 与 方法 层 ” 以 及 “大 数据 理 
论 与 方法 层 ” 的 部 分 数据 科学 课程 能 够 较 好 地 切合 图 


情 档 的 核心 主题 ,对 于 图 情 档 学 科 人 才 培 养 新 范式 的 
建设 有 一 定 的 借鉴 意义 。 


R2 图 情 档 主干 知识 与 大 数据 专业 的 联系 


学 科 主干 知识 层次 xumou SMEER 对 应 的 大 数据 专业 课程 层次 与 类 别 
信息 组 织 概念 级 信息 组 织 0 基础 理论 与 方法 层 -算法 与 程序 
分 类 17 大 数据 理论 与 方法 层 - 数据 分 析 与 挖 所 
标 引 2 
理论 级 分 类 法 3 
编目 法 0 
索引 法 0 
体系 级 文献 体系 0 
T- 知识 体系 9 
信息 检索 概念 级 信息 检索 1 基础 理论 与 方法 层 -算法 与 程序 
LO guae 0 大 数据 理论 与 方法 层 - 数据 存储 与 管理 
co 理论 级 布尔 检索 0 大 数据 理论 与 方法 层 - 数据 采集 与 加 工 
e 算法 /搜索 算法 18 
c 体系 级 搜索 引擎 0 
"T 检索 系统 0 
Carson 概念 级 信息 分 析 1 基础 理论 与 方法 层 -算法 与 程序 


大 数据 理论 与 方法 层 -数据 分 析 与 挖掘 


e 图 情 档 的 数据 科学 类 课程 建设 
SETE HHRH, 总 结 出 大 数据 专业 课程 层次 
IRAE ET AAR ER, AH 4 所 示 。 其 中 上 
方 鬼 图 情 档 主干 知识 ,下 方 为 数据 科学 课程 链 , 将 数据 
c 


k 
(S) 


科学 课程 链 中 的 课程 类 别 与 相关 度 较 高 的 图 情 档 主干 
知识 对 应 起 来 ,得 到 相应 的 对 接点 ,以 此 可 以 总 结 出 
情 档 学 科 的 数据 科学 类 课程 群 。 


算法 与 程序 | 一 > 聊 据 存储 与 管理 | — ems sir] — eem ovi sms] [eene] 


理论 基础 层 


基础 应 用 层 


高 级 应 用 层 


图 4 大 数据 专业 课程 层次 与 图 情 档 学 科 主 干 知识 对 接点 


面向 图 情 档 专业 人 才 培 养 的 数据 科学 类 课程 群 ， 
整体 架构 上 应 该 更 多 借鉴 大 数据 专业 的 课程 框架 , 课 
程 建设 理念 上 要 重视 数据 科学 的 应 用 实践 。 可 以 根据 
院 系 的 具体 情况 ,在 基础 理论 与 方法 层 设 置 Python f£ 
序 设计 ;在 大 数据 理论 与 方法 层 ,也 可 以 选择 以 Python 
语言 为 核心 ,依次 开设 数据 存储 与 管理 数据 采集 与 加 


T 数据 分 析 与 挖掘 的 课程 ,例如 开设 基于 Python 的 网 
28 TE rh, .数据 分 析 ,数据 可 视 化 等 课程 。 在 综合 方法 及 
应 用 层 ,与 商学 院 等 其 他 学 院 的 教师 合作 ,开展 商务 智 
能 等 大 数据 课程 ,形成 "Python 编程 基础 - Python 网 络 
JEE - Python 数据 分 析 与 可 视 化 - 商务 智能 "的 一 系 
列 面向 图 情 档 专业 的 数据 科学 课程 链 。 
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正如 柯 平 “ 提 到 的 ,“ 新 文科 ”背景 下 图 情 档 学 科 
的 人 才 培 养 模式 发 展 不 能 一 味 地 增加 不 合适 的 数据 科 
学 课程 。 面 向 图 情 档 专业 人 才 培 养 的 数据 科学 课程 群 
建设 ,要 立足 于 信息 组 织 、 信 息 检索 和 信息 分 析 等 学 科 
主干 知识 的 传授 。 绪 合 大 数据 专业 的 方法 和 技术 ,应 
用 于 图 情 档 学 科 的 原本 领域 ,建设 具有 图 情 特色 的 数 
据 科 学 课程 群 。 本 研究 从 大 数据 专业 的 培养 方案 中 挑 
选 出 了 一 部 分 课程 ,可 以 用 来 培养 图 情 档 学 科学 生 的 
信息 组 织 ,信息 检索 和 信息 分 析 能 力 ,如 表 3 所 示 : 

表 3 面向 图 情 档 的 数据 科学 类 课程 

核心 培养 点 课程 建议 


信息 组 织 。 数据 结构 与 算法 、 深 度 学 习 基 础 .知识 图 谱 、 非 结构 化 数据 
V 分 类 与 标 引 \ 语 义 网 络 


信息 检索 。 网 络 仆 虫 与 数据 收集 \ 信 息 检索 基础 智能 信息 检索 、 用 户 分 
~ 析 与 推荐 算法 

rv 引文 网 络 分 析 ` 数 据 挖掘 .自然 语言 处 理 . Python 程序 设计 、 
T™ R 语言 及 统计 分 析 

CD 需 注意 的 是 ,不 能 简单 地 从 大 数据 专业 照搬 一 些 


WE 呢 科 学 课程 ,而 是 要 结合 图 情 档 主干 知识 和 院 系 的 
具体 情况 。 面 向 图 情 档 的 数据 科学 课程 在 数据 科学 思 
维 条 理论 层次 要 求 不 高 ,但 要 重视 实践 性 与 结合 性 。 
(Eg ctn e pun e Jo IRE Rd h E 
APAREY 分 类 与 标 引 语义 网 络 等 方面 的 内 容 引 
/ 乔 关 课程 ;培养 学 生 信息 检索 能 力 的 数据 科学 课程 
dE , 除 教学 基础 的 数据 搜集 与 信息 检索 内 容 外 ,还 
一 岳 结 合 深度 学 习 、 强 化 学 习 等 知识 ,在 智能 信息 检 
未 虽 户 推荐 算法 领域 的 应 用 加 强 教学 培养 学 生 信息 
分 板 能 力 的 数据 科学 课程 建设 中 ,可 以 设置 一 些 算法 
与 利 序 课程 ,例如 设置 基于 Jupyter Notebook 平台 的 
Python 程序 设计 教学 ,还 可 以 将 前 沿 的 数据 挖掘 算法 、 
自然 语言 处 理 、 引 文 网 络 分 析 的 基本 内 容纳 入 课程 
内 容 。 


5 结语 


本 研究 探讨 了 大 数据 专业 的 人 才 培 养 范式 及 主题 
演变 网 络 ,大 数据 专业 的 课程 层次 .图 情 档 学 科 主 干 知 
识 及 与 大 数据 专业 的 联系 、 面 向 图 情 档 人 才 培 养 的 数 
据 科 学 类 课程 群 建设 思路 以 及 具体 的 课程 内 容 , 陈 沫 
等 "提出 的 课程 体系 分 层 和 叶 座 中 提出 的 图 情 档 学 
科 主 干 知 识 对 本 文具 有 重要 的 基础 和 启发 作用 。 

研究 提 到 的 基于 数据 科学 建设 图 情 档 学 科 人 才 培 
养 新 模式 是 一 种 发 展 的 路 径 选择 ,有 高 校 已 经 将 数据 
科学 作为 图 情 档 学 科 自 设 的 二 级 学 科 。 但 图 情 档 也 有 
不 少 其 他 的 特色 方向 ,例如 中 国人 民 大 学 着 力 建设 的 


“数字 人 文 ” ,复旦 大 学 积极 推动 的 “古籍 保护 与 非 物 
质 文化 遗产 "及 华东 师范 大 学 于 2015 年 启动 的 “商业 
分 析 "探索 等 。 无 论 发 展 模式 如 何 抉择 ,做 到 守 正 与 创 
新 都 应 是 改革 的 前 提 。 
大 数据 时 代 下 ,图 情 档 学 科 人 才 培 养 改 革 发 展 刚 
刚 起 步 , 且 面临 着 诸多 问题 :如 何 将 数据 科学 课程 与 本 
专业 的 学 科 特 色 深度 结合 ?如 何 使 图 情 档 专业 的 人 才 
培养 模式 与 社会 需求 相 结 合 ” 如何 使 图 情 档 专业 的 人 
才 培 养 模式 向 国际 看 齐 ,又 不 失 中 国 特色 ? 这 些 问题 
近年 来 已 有 诸多 讨论 ,但 仍 未 有 显著 共识 。 
此 外 ,方法 层面 ,本 研究 应 用 的 时 序 主题 网 络 模型 
也 存在 局 限 性 ,后续 研究 可 以 考虑 :中 完善 科学 的 切片 
范围 计算 指标 ;@) 探 索 更 合适 的 布局 计算 方法 ,以 清 
晰 、 完 整地 呈现 演变 网 络 ;@ 利 用 PCA 降 维 等 方法 降 
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„Z Abstract: | Purpose/significance | Under the background of the big data tide and the new liberal arts, there is 
2f urgent need to reform and innovate the talent training mode of library and information science in China. The con- 
uction of the big data subjects is in the ascendant, which has a strong reference significance for the construction of 
‘Ee paradigm of talent cultivation in library and information science. | Method/process | This paper innovatively 
proposed a new sequential topic network model and the calculation method. By collecting, processing, counting and 
analyzing the talent cultivation policies of the big data subjects in 259 universities, this paper conducted topic mining 
in the time dimension and summarized the levels of data science courses. Additionally, this paper analyzed the rele- 
vance between the subjects of the big data and the main knowledge of library and information science, and put for- 
ward suggestions for data science courses suitable for library and information science. | Result/conclusion | The se- 
quential topic network model can better fit the analysis of talent cultivation paradigm development in the big data sub- 
jects, and it may also be a way to research the topic of a subject. Finally, this paper puts forward some suggestions 
for the courses of data science which is oriented to library and information science, and there is certain reference val- 
ue for the development of talent cultivation in library and information science. 
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